網絡爬蟲進化論 — 從 Excel 爬蟲到 Python 爬蟲

網絡爬蟲進化論 — 從 Excel 爬蟲到 Python 爬蟲

作者: 曹鑑華
出版社: 中國水利水電
出版在: 2020-11-01
ISBN-13: 9787517090465
ISBN-10: 7517090461
裝訂格式: 平裝
總頁數: 338 頁





內容描述


本書主要通過對Excel 爬蟲和Python 爬蟲的對比,介紹使用Excel 和Python 實現網絡數據爬取的相關內容和方法。
書中按照學習的遞進層次分為基礎篇、Excel 爬蟲篇和Python 爬蟲篇三部分內容,
基礎篇包括網絡爬蟲基礎、網頁和網站基礎、網頁開發者工具和Python 編程基礎等內容,
Excel 爬蟲篇包括使用Excel的PowerQuery 模塊實現網絡表格數據採集和相關案例實踐等內容,Python 爬蟲篇包括網絡爬蟲初體驗、
各種第三方庫的使用詳解、Python 爬蟲案例、Scrapy 框架和對比爬取福布斯榜單案例等內容。
本書結構緊湊、內容翔實、圖文並茂、案例豐富,適合對網絡數據爬取感興趣的讀者,
對從事數據科學、大數據相關工程的技術人員也具有一定的參考價值。


目錄大綱


目錄
基礎篇
視頻講解:289分鐘
第1章初識爬蟲
1.1什麼是網絡爬蟲
1.1.1對比搜索理解網絡爬蟲
1.1.2網絡爬蟲的基本流程
1.1.3了解爬蟲歷史
1.2如何學習網絡爬蟲
1.2.1學習新技術的自信
1.2.2網頁基礎知識學習
1.2.3掌握必要的爬蟲技術
1.3正道爬蟲——技術無邊,法律有界
1.3.1爬蟲只是數據的搬運工
1.3.2遵守君子協議爬取數據
【案例1.1 】解讀京東官網robots.txt協議
【案例1.2】解讀國家統計局官網robots.txt協議
【案例1.3】解讀“什麼值得買”網站robots.txt協議
1.3.3惡意爬蟲前車之鑑
1.3.4合法合規快樂爬蟲
1.4爬蟲工具——Excel和Python
1.4.1 Excel軟件
1.4.2 Python軟件
1.5本章小結
第2章網站基礎知識
2.1網頁基礎入門
2.1.1認識網頁
2.1.2網頁功能區域劃分
2.1.3網頁的基本元素
2.1.4 HTML標記
2.2開始動手寫網頁
2.2.1選擇網頁開發工具
2.2.2選擇瀏覽器
2.2.3網頁開發入門實戰
【案例2.1】編寫一個顯示文本內容的網頁
【案例2.2】編寫一個顯示表格內容的網頁
【案例2.3】編寫一個顯示圖片和超鏈接的網頁
【案例2.4】編寫一個無序列表顯示內容的網頁
【案例2.5 】編寫一個用戶登錄表單的網頁
2.2.4網頁開發進階實戰
【案例2.6】完成網頁文本和圖片顯示樣式的設置
【案例2.7】完成網頁表格及顯示內容樣式的設置
【案例2.8】使用class類名完成HTML代碼與CSS樣式分離的設置
【案例2.9】導入CSS文件實現HTML代碼與CSS樣式分離的設置
【案例2.10】插入Javascript腳本實現彈窗顯示helloworld
【案例2.11】導入Javascript腳本文件,實現彈窗顯示helloworld
……
Excel爬蟲篇
Python爬蟲篇
附錄網絡爬蟲工具概要參考表
後記


作者介紹


曹鑑華
湖北恩施人,博士研究生畢業,現在天津科技大學計算機科學與信息工程學院任職,大數據專業帶頭人,
主要從事模式識別、機器學習、油氣地質大數據方面的研究,具有多年系統軟件開發經驗。




相關書籍

Python 再進化:系統化金融分析與風險管理

作者 斯文

2020-11-01

AI and Machine Learning for Coders: A Programmer's Guide to Artificial Intelligence

作者 Moroney Laurence

2020-11-01

爬蟲在手 資料我有:7堂課學會高效率 Scrapy 爬蟲(iT邦幫忙鐵人賽系列書)

作者 簡學群

2020-11-01